网安 - 专业的网络安全产业、社区、知识平台

制定灾难复原策略

应对云计算中断的第一步是创建和实施灾难恢复(DR)计划，并在灾难发生之前很长时间就将其部署到位。尽管云计算提供商提供了大量的服务和资源，但是用户需要为每个工作负载创建、部署、配置和监视这些服务和资源。实际的灾难恢复策略可能会根据工作负载的需求及其对企业的重要性而发生根本性的变化。

沟通并实现云计算透明

当事情发生变化时，需要了解云中发生了什么。传统上，云计算提供商对服务中断一直不透明，但随着企业将更有价值的工作负载委托给公共云，这种情况正在改变。企业需要更多的云计算透明性，提供商也在改善与用户的通信，提供有关中断性质及其当前状态的更及时的见解。

确定灾难恢复计划的业务价值

确定需要执行什么来实施灾难恢复计划。有些计划是自动的。例如，重要的工作负载通常通过某种类型的集群来保护，即使节点(或实例)发生故障，集群也应继续运行。针对次要工作负载的灾难恢复策略可能需要人为干预或分散步骤，例如恢复和重新启动快照或切换到备份实例。

实施灾难恢复计划

在许多情况下，关键任务灾难恢复计划可能是完全自动化的，并且管理人员可能无需采取任何有意的操作。但是，不太重要的工作负载可能需要采取有计划的行动。采用准备好的脚本、模板或其他资源，以协调适当的灾难恢复响应。当企业决定启动需要人为干预的灾难恢复计划时，管理员必须立即采取行动。这可能包括在云计算中断期间从快照重新启动或将流量重定向到备用实例。

监控灾难复原策略

无论实施灾难恢复策略所涉及的工作量或自动化程度如何，验证已恢复的工作负载是否正常运行仍然很重要。管理人员应将以灾难恢复状态运行的工作负载的性能与在正常条件下运行的相同工作负载的性能进行比较。

应用程序监视工具着眼于工作负载运行状况。这些工具还收集日志、指标和事件，以中继有关已恢复工作负载的操作数据。此外，他们将在整个云计算中断期间继续监视工作负载的性能和可用性。

云计算中断的事后评估

云计算中断对企业来说可能会很痛苦，但不会一直持续下去。当云计算提供商解决其中断并恢复正常的工作负载操作时，组织需要对事件进行事后评估，并评估其灾难恢复响应。

云计算中断的应对措施有哪些